做量化交易的時候很常出現一種狀況,就是對預測結果進行回測,接著調整回測參數,重複這樣的行為直到出現看起來不錯的回測結果。
你會發現不論本國或是外國都充斥這樣不正確的發現,甚至一些券商內部也是這樣(進交易室時你就知道了),事實上這樣的狀況通常券商交易員經過大約20幾次的測試調整就能找到一個(過擬合)的投資策略。其顯著性水準大多落在5%。
這之中要注意的是,在金融研究中過擬合是非常容易發生的。我們本日要討論的就是在進行回測之前要做的特徵重要性分析。前面已經有使用基於樹的模型進行的一種特徵重要性篩選。但是這樣的篩選會遇到一個問題替代效應。
替代效應是在做特徵篩選時,一次使用太多特徵,導致有些特徵被誤以為很重要卻實際上仰賴某些特定條件才會有用而不是通常的。
有一種方式可以做為先前的特徵篩選補充:
此方法以幾個不同模型(不限於基於樹的模型)計算平均準度等等指標,以交叉驗證計算,每次只有使用一個特徵的方式進行估計,選取平均效果較好的指標。
他有幾個優點:
缺點如下: